深度学习—— 1 引言

深度学习—— 1 引言
可爱可倾1 引言
1.1 机器学习中的关键组件
- 可以用来学习的数据(data);
- 如何转换数据的模型(model);
- ⼀个目标函数(objective function),用来量化模型的有效性;
- 调整模型参数以优化目标函数的算法(algorithm)。
1.2 各种机器学习问题
1.2.1 监督学习
监督学习(supervised learning)擅长在“给定输入特征”的情况下预测标签。 每个“特征-标签”对都称为一个样本(example)。 有时,即使标签是未知的,样本也可以指代输入特征。 我们的目标是生成一个模型,能够将任何输入特征映射到标签(即预测)。
监督学习的学习过程一般可以分为三大步骤:
- 从已知大量数据样本中随机选取一个子集,为每个样本获取真实标签。这些输入和相应的标签一起构成了训练数据集;
- 选择有监督的学习算法,它将训练数据集作为输入,并输出一个“已完成学习的模型”;
- 将之前没有见过的样本特征放到这个“已完成学习的模型”中,使用模型的输出作为相应标签的预测。
具体如图1.1所示:
1.2.1.1 回归
当标签取任意数值时,我们称之为回归问题,即训练一个回归函数来输出一个数值。 例如,给定一组房屋的特征,我们可以训练一个模型来预测房屋的价格。 回归问题的常见损失函数为平方误差。
1.2.1.2 分类
分类问题希望模型能够预测样本属于哪个类别。 例如,给定一组猫和狗的图片,我们可以训练一个模型来预测图片中是猫还是狗。 分类问题的常见损失函数为交叉熵。
1.2.1.3 标记问题
类似于多标签分类,比如识别一张图中所有的物体并给出标记。
1.2.1.4 搜索
在信息检索领域,我们希望对一组项目进行排序。 以网络搜索为例,目标不是简单的“查询(query)-网页(page)”分类,而是在海量搜索结果中找到用户最需要的那部分。可能的解决方案是首先为集合中的每个元素分配相应的相关性分数,然后检索评级最高的元素。
1.2.1.5 推荐系统
目标是向特定用户进行“个性化”推荐
1.2.1.6 序列学习
如果输入是连续的,模型可能就需要拥有“记忆”功能。因为预测后者需要前者的信息,比如语音识别,机器翻译等。
1.2.2 无监督学习
- 聚类(clustering)问题:没有标签的情况下,给数据分类。
- 主成分分析(principal component analysis)问题:我们能否找到少量的参数来准确地捕捉数据的线性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。
- 因果关系(causality)和概率图模型(probabilistic graphical models)问题:我们能否描述观察到的许多数据的根本原因?例如,如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据,我们能否简单地根据经验数据发现它们之间的关系?
- 生成对抗性网络(generative adversarial networks):为我们提供一种合成数据的方法,甚至像图像和音频这样复杂的非结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试。
1.2.3 与环境互动
到目前为止,不管是监督学习还是无监督学习,我们都会预先获取大量数据,然后启动模型,不再与环境交互。这里所有学习都是在算法与环境断开后进行的,被称为离线学习。
1.2.4 强化学习
智能体(agent)在一系列的时间步骤上与环境交互。 在每个特定时间点,智能体从环境接收一些观察(observation),并且必须选择一个动作(action),然后通过某种机制将其传输回环境,最后智能体从环境中获得奖励(reward)。 此后新一轮循环开始,智能体接收后续观察,并选择后续操作,依此类推。 强化学习的过程在图1.2中进行了说明。 请注意,强化学习的目标是产生一个好的策略(policy)。 强化学习智能体选择的“动作”受策略控制,即一个从环境观察映射到行动的功能。
- 当环境可被完全观察到时,强化学习问题被称为马尔可夫决策过程(markov decision process)。
- 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机(contextual bandit problem)。
- 当没有状态,只有一组最初未知回报的可用动作时,这个问题就是经典的多臂赌博机(multi-armed bandit problem)。






